大数据期末考试题库 | 您所在的位置:网站首页 › 数据库 考试题 › 大数据期末考试题库 |
文章目录
Spark选择题章鱼学院(Spark)大数据期末题目汇总选择题填空题判断题简答题
Spark选择题
Spark 的四大组件下面哪个不是 ( D ) A.Spark Streaming B Mlib C Graphx D Spark R 下面哪个端口不是 spark 自带服务的端口 ( C ) A.8080 B.4040 C.8090 D.18080 spark 1.4 版本的最大变化 ( B ) A spark sql Release 版本 B 引入 Spark R C DataFrame D 支持动态资源分配 Spark Job 默认的调度模式 ( A ) A FIFO B FAIR C 无 D 运行时指定 哪个不是本地模式运行的个条件 ( D ) A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition 默认值 下面哪个不是 RDD 的特点 ( C ) A. 可分区 B 可序列化 C 可修改 D 可持久化 关于广播变量,下面哪个是错误的 ( D ) A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS 关于累加器,下面哪个是错误的 ( D ) A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型 Spark 支持的分布式部署方式中哪个是错误的 ( D ) A standalone B spark on mesos C spark on YARN D Spark on local Stage 的 Task 的数量由什么决定 ( A ) A Partition B Job C Stage D TaskScheduler 下面哪个操作是窄依赖 ( B ) A join B filter C group D sort 下面哪个操作肯定是宽依赖 ( C ) A map B flatMap C reduceByKey D sample spark 的 master 和 worker 通过什么方式进行通信的? ( D ) A http B nio C netty D Akka 默认的存储级别 ( A ) A MEMORY_ONLY B MEMORY_ONLY_SER C MEMORY_AND_DISK D MEMORY_AND_DISK_SER spark.deploy.recoveryMode 不支持那种 ( D ) A.ZooKeeper B. FileSystem D NONE D Hadoop 下列哪个不是 RDD 的缓存方法 ( C ) A persist() B Cache() C Memory() Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C ) A Driver program B. spark master C.worker node D Cluster manager hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B ) A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别 DataFrame 和 RDD 最大的区别 ( B ) A. 科学统计支持 B. 多了 schema C. 存储方式不一样 D. 外部数据源支持 Master 的 ElectedLeader 事件后做了哪些操作 ( D ) A. 通知 driver B. 通知 worker C. 注册 application D. 直接 ALIVE 章鱼学院(Spark)Spark 是什么 () ? 正确答案:A,C,D A.Spark 是基于内存计算的框架B.Spark 是基于磁盘计算的框架C.Spark 是一种基于 RDD 计算框架D.Spark 是一种并行计算框架spark 的数据,可以存储在哪些地方?正确答案:A,B,C,D A.HDFSB.CassandraC.HbaseD.S3大数据处理主要的三种场景为() 正确答案:A,B,C A. 批处理B. 交互处理C. 流式计算D. 事务处理以下对 Spark Core 描述正确的有?正确答案:A,B,C,D A. 引入了 RDDB. 移动计算而非移动数据C. 使用线程池来减少 task 启动开销D. 使用 akka 作为通讯框架以下对 Spark SQL 的描述正确的有?正确答案:A,B,C A.Spark SQL 运行开发人员之间处理 RDDB.Spark SQL 可以直接查询 hive 中的数据C.Spark SQL 运行开发人员之间使用 SQL 进行复制的数据分析D.Spark SQL 的性能上,和 Hive 类似。以下哪些是 Spark 的组件?正确答案:A,B,C A.MLBase/MLlibB.GraphXC.Spark RD.MatlabSpark 的运行模式有哪些?正确答案:A,B,C,D A.localB.StandaloneC.on Yarn or on mesosD.on Cloudspark 运行模式中,on yarn 这种模式,可以应用于生产环境中。 正确答案:A A. 正确B. 错误spark 运行模式中,local 这种模式,可以应用于生产环境中。 正确答案:B A. 正确B. 错误Spark 使用的资源管理器有哪些?正确答案:A,B,C,D A.MesosB.standaloneC.yarnD.cloudspark 都有哪些组件? 正确答案:A,B,C,D A.Spark SQLB.Spark StreamingC.MLlibD.GraphXSpark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架 正确答案:A A. 正确B. 错误下列对 spark 描述正确的有? 正确答案:A,B,C,D A.spark 是基于内存计算的B.spark 处理大量数据的一个快速通用的引擎C.spark 由 AMPlab 实验室开发D.spark 目前是 apache 的顶级项目spark 是由 java 语言开发 正确答案:B A. 正确B. 错误Spark 的容错机制是 ()。 正确答案:A,D A.checkpointB.persistC.cacheD.lineageSpark 与 Hadoop 的区别 ()。 正确答案:A,C A.Spark 是基于内存计算框架,而 Hadoop 基于硬盘计算框架B.Spark 是基于硬盘计算框架,而 Hadoop 基于内存计算框架C.Spark 是一站式计算框架,而 Hadoop 只适合离线处理计算框架D.Spark 只适合离线处理计算框架,而 Hadoop 是一站式计算框架spark 基本特点有哪些?正确答案:A,B,C,D A.Ease of useB.GeneralityC.Runs everywhereD.Speed可以使用哪些语言来编写 spark 应用程序? 正确答案:A,B,C,D A.javaB.scalaC.pythonD.Rspark 和 hadoop 对比,说法正确的是? 正确答案:A,B,C A.Hadoop 中间结果会存储在磁盘上B.spark 中间结果会存储在内存中C.Spark 相对于 hadoop 提供了更多的操作D.Spark 已经完全取代 hadoopSpark 常见组件描述错误的是 ()。 正确答案:B A.Spark Core:是以内存使用 RDD 的计算实现有向无环图的分布式并行计算框架B.Spark Streaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架C.Spark SQL:是一个可以直接通过 sql 语句处理 RDD,来进行查询与计算D.Spark MLBase:是专注于机器学习方面E.Spark GraphX:是专注于图计算方面F.SparkR:是一种使用 R 语言开发,且能实现并行处理的计算框架 大数据期末题目汇总 选择题 下面哪个程序负责 HDFS 数据存储。 (C )A. NameNode B.Jobtracker C. Datanode D. secondaryNameNode HDFS 中的 block 默认保存几个备份。 ( A )A. 3 份 B. 2 份 C. 1 份 D. 不确定 HDFS1.0 默认 Block Size 大小是多少。 ( B )A. 32MB B. 64MB C. 128MB D. 256MB 下面哪个进程负责 MapReduce 任务调度。 ( B )A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode Hadoop1.0 默认的调度器策略是哪个。 (A )A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器 Client 端上传文件的时候下列哪项正确? ( B )A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block,依次上传 C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 D. 以上都不正确 在实验集群的 master 节点使用 jps 命令查看进程时,终端出现以下哪项能说明 Hadoop 主节点启动成功? ( D )A. Namenode,Datanode, TaskTracker B. Namenode,Datanode, secondaryNameNode C. Namenode,Datanode, HMaster D. Namenode,JobTracker, secondaryNameNode 若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,下列哪一项是 MapReduce 不适宜的运算。 ( D )A. Max B. Min C. Count D. Average MapReduce 编程模型,键值对 的 key 必须实现哪个接口? ( A )A.WritableComparable B. Comparable C. Writable D. LongWritable 以下哪一项属于非结构化数据。(C)A. 企业 ERP 数据 B. 财务系统数据 C. 视频监控数据 D. 日志数据 HBase 数据库的 BlockCache 缓存的数据块中,哪一项不一定能提高效率。 (D )A. –ROOT - 表 B. .META. 表 C. HFile index D. 普通的数据块 HBase 是分布式列式存储系统,记录按什么集中存放。 (A )A. 列族 B. 列 C. 行 D. 不确定 HBase 的 Region 组成中,必须要有以下哪一项。 ( B )A. StoreFile B. MemStore C. HFile D. MetaStore 客户端首次查询 HBase 数据库时,首先需要从哪个表开始查找。 ( B )A. .META. B. –ROOT- C. 用户表 D. 信息表 15、设计分布式数据仓库 hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 ( A ) A. 分桶 B. 分区 C. 索引 D. 分表 填空题大数据的特点:Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性) 大数据的性质:非结构性、不完备性、时效性、安全性、可靠性 大数据处理的全过程:数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释 大数据的关键技术:流处理、并行化、摘要索引、可视化 科学研究范式:第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算) CAP理论:Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。 HDFS 目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性 流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性 Storm 特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列,快 搜索引擎的工作过程:爬行 -> 抓取存储 -> 预处理 -> 排名 搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性 数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。 Hadoop 的三种安装模式:单机 伪分布式 完全分布式 yarn 配置后的 web 监控的默认端口是 8088 HDFS web 界面的默认端口为 50070 目前得到广泛应用的分布式文件系统主要包括 GFS 和 HDFS。 HDFS 采用 “一次写入,多次读取” 的简单文件模型。 HDFS 采用了 主从结构模型。 Hase 3 个主要功能组件:库函数,Master 主服务器,Region 服务器 MapReduce 模型的核心是 Map 函数和 Reduce 函数。 YARN 的目标就是实现 “一个集群,多个框架”。 判断题Hadoop 支持数据的随机读写。(hbase 支持,hadoop 不支持) ( 错 ) NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 ) MapReduce 的 input split 一定是一个 block。 (默认是) ( 错) MapReduce 适于 PB 级别以上的海量数据在线处理。 (离线) ( 错 ) 链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。 ( 对 ) MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。( 对 ) HBase 对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 ) HBase 可以有列,可以没有列族(column family)。 (有列族) ( 错 ) 简答题 简述大数据技术的特点。Volume(大体量):即可从数百 TB 到数十数百 PB、甚至 EB 规模。 Variety(多样性):即大数据包括各种格式和形态的数据。 Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。 Veracity(准确性):即处理的结果要保证一定的准确性。 Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。 启动 Hadoop 系统,当使用 bin/start-all.sh 命令启动时,请给出集群各进程启动顺序。答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager 简述 HBase 的主要技术特点。(1)列式存储 (2)表数据是稀疏的多维映射表 (3)读写的严格一致性 (4)提供很高的数据读写速度 (5)良好的线性可扩展性 (6)提供海量数据 (7)数据会自动分片 (8)对于数据故障,hbase 是有自动的失效检测和恢复能力。 (9)提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。 科学研究第一范式、第二范式、第三范式、第四范式。 第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算) 第一范式:经验范式,以观察和实验为依据的研究。 第二范式:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。 第三范式:以模拟复杂现象为基础的计算科学范式,又称为模拟范式。 第四范式:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据。 分布式系统的 CAP 理论。 CAP 一致性:所有节点在同一时间具有相同的数据。 可用性:保证每个请求的成功或失败都有相应。 分区容错性:系统中任意信息的丢失或失败不影响系统的继续运行。 CAP 定理:一个分布式系统不可能同时满足一致性、可用性、和分区容错性,最多只能同时满足两个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。 CAP 选择:1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。 函数式语言的概念及特点,Map 及 Reduce 过程的含义及功能,Hadoop 分布式平台特点。 函数式语言的概念和特点:函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构,对调用块的调用者来说,每个块都有输入数据和经过加工处理后的输出数据。 Map 及 Reduce 过程的含义及功能:Map(映射)Reduce(化简)。Map 函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中,通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对,Reduce 函数用来对同一个键的值进行合并。 Hadoop 分布式平台特点:方便,健壮,可横向扩展,简单。 |
CopyRight 2018-2019 实验室设备网 版权所有 |